Methoden zur Extraktion bilingualer lexikalischer Informationen aus Parallelkorpora

creator	Austinat, Holger
date	1998-07-28

description	79 pages
	Diese Studienarbeit untersucht Methoden zur Extraktion bilingualer lexikalischer Informationen aus Parallelkorpora. Es wird von Texten in der Größenordnung von einigen Millionen Worten ausgegangen, die parallel in Deutsch und Englisch (und z.T. in weiteren Sprachen) vorliegen. Diese Texte sind bereits für die Verwendung der IMS-Corpus-Tools aufbereitet und auf der Ebene von Sätzen bzw. vergleichbarer Einheiten zugeordnet. Für diese Texte soll eine Zuordnung auf Wortebene oder auf der Ebene kleiner syntaktischer Einheiten (z.B. Nominalphrasen) hergestellt werden. Dabei sollen Informationen über bereits bekannte Wortpaare, Wortartmarkierungen, morphologische Analysen sowie heuristische Informationsquellen verwendet werden, um die Zuordnung möglichst genau zu machen. Ergebnis dieser Zuordnung ist die Rohform eines bilingualen Lexikons, das jedoch noch eine beträchtliche Menge an falschen Übersetzungshypothesen enthält. Es sollen Methoden untersucht werden, die Qualität des Ergebnisses abzuschätzen (precision, recall), ohne alle Hypothesen einzeln von Hand beurteilen zu müssen.
format	application/postscript
	837064 Bytes

identifier

language	ger
publisher	Stuttgart, Germany, Universität Stuttgart
relation	Student Thesis No. 1704
source	ftp://ftp.informatik.uni-stuttgart.de/pub/library/medoc.ustuttgart_fi/STUD-1704/STUD-1704.ps
subject	Content Analysis and Indexing (CR H.3.1)
	Natural Language Processing (CR I.2.7)
	Parallelkorpora
	automatische Lexikonerstellung
	bilinguales Lexikon
	Precision
	Recall
title	Methoden zur Extraktion bilingualer lexikalischer Informationen aus Parallelkorpora
type	Text
	Student Thesis